自由图页中的手写文本识别(HTR)是一项艰巨的图像理解任务,可以为手写文档的数字化和重复使用其内容提供相关的增强。由于写作风格的变化和页面质量降解的变化,该任务在处理历史文档时变得更加具有挑战性。最先进的HTR方法通常将序列建模的复发结构与卷积神经网络进行视觉特征提取。由于卷积内核是在固定网格上定义的,并专注于所有输入像素时在输入映像时独立地独立于所有输入像素,因此该策略无视手写字符在形状,比例和规模和方向上,即使在同一文档中,并且墨水像素为比背景更相关。为了应对这些特定的HTR困难,我们建议采用可变形的卷积,这可能会根据手头的输入而变形,并更好地适应文本的几何变化。我们设计了两个可变形的架构,并在现代和历史数据集上进行了广泛的实验。实验结果证实了可变形卷积对HTR任务的适用性。
translated by 谷歌翻译
手写文本识别(HTR)是计算机视觉和自然语言处理的交集的一个开放问题。当处理历史手稿时,主要挑战是由于保存纸张支撑,手写的可变性 - 甚至在广泛的时间内的同一作者的变异性 - 以及来自古代,代表不良的数据稀缺语言。为了促进有关该主题的研究,在本文中,我们介绍了Ludovico Antonio Muratori(LAM)数据集,这是一家大型线条级的HTR HTR数据集,该数据集是由单个作者编辑的60年来编辑的意大利古代手稿。该数据集有两种配置:基本分裂和基于日期的分裂,该分裂考虑了作者的年龄。第一个设置旨在研究意大利语的古代文档中的HTR,而第二个设置则侧重于HTR系统在无法获得培训数据的时期内识别同一作者编写的文本的能力。对于这两种配置,我们都在其他线路级别的HTR基准方面分析了定量和定性特征,并介绍了最先进的HTR架构的识别性能。该数据集可在\ url {https://aimagelab.ing.unimore.it/go/lam}下载。
translated by 谷歌翻译
图像文本匹配是在涉及对视觉和语言的共同理解的任务中发挥领导作用。在文献中,此任务通常被用作培训能够共同处理图像和文本的架构的预训练目标。但是,它具有直接的下游应用程序:跨模式检索,其中包括查找与给定查询文本或反之亦然相关的图像。解决此任务对于跨模式搜索引擎至关重要。许多最近的方法提出了针对图像文本匹配问题的有效解决方案,主要是使用最近的大型视觉语言(VL)变压器网络。但是,这些模型通常在计算上很昂贵,尤其是在推理时间。这样可以防止他们在大规模的跨模式检索场景中采用,几乎应该立即向用户提供结果。在本文中,我们建议通过提出对齐和提炼网络(Aladin)来填补有效性和效率之间的空白。阿拉丁首先通过在细粒度的图像和文本上对齐来产生高效的分数。然后,它通过提炼从细粒对齐方式获得的相关性分数来提炼共享的嵌入空间 - 可以进行有效的KNN搜索。我们在MS-Coco上取得了显着的结果,表明我们的方法可以与最先进的VL变形金刚竞争,同时快了近90倍。复制我们结果的代码可在https://github.com/mesnico/aladin上获得。
translated by 谷歌翻译
图像字幕模型旨在通过提供输入图像的自然语言描述来连接视觉和语言。在过去的几年中,通过学习参数模型并提出视觉特征提取的进步或建模更好的多模式连接来解决该任务。在本文中,我们研究了使用KNN记忆的图像字幕方法的开发,可以从外部语料库中检索知识以帮助生成过程。我们的架构结合了一个基于视觉相似性,可区分编码器和KNN-agn-agn-agement注意层的知识检索器,以根据过去的上下文和从外部内存检索的文本进行预测令牌。在可可数据集上进行的实验结果表明,采用明确的外部记忆可以帮助生成过程并提高标题质量。我们的工作开辟了新的途径,以更大规模改善图像字幕模型。
translated by 谷歌翻译
基于图像的虚拟试验努力将服装的外观转移到目标人的图像上。先前的工作主要集中在上身衣服(例如T恤,衬衫和上衣)上,并忽略了全身或低身物品。这种缺点来自一个主要因素:用于基于图像的虚拟试验的当前公开可用数据集并不解释此品种,从而限制了该领域的进度。为了解决这种缺陷,我们介绍着着装代码,其中包含多类服装的图像。着装代码比基于图像的虚拟试验的公共可用数据集大于3倍以上,并且具有前视图,全身参考模型的高分辨率配对图像(1024x768)。为了生成具有高视觉质量且细节丰富的高清尝试图像,我们建议学习细粒度的区分功能。具体而言,我们利用一种语义意识歧视器,该歧视器在像素级而不是图像级或贴片级上进行预测。广泛的实验评估表明,所提出的方法在视觉质量和定量结果方面超过了基线和最先进的竞争者。着装码数据集可在https://github.com/aimagelab/dress-code上公开获得。
translated by 谷歌翻译
虽然标题模型已经获得了引人注目的结果,但在描述自然图像时,它们仍然不会涵盖现实世界概念的整个长尾分布。在本文中,我们通过在Web级自动收集的数据集上培训来解决与野外概念生成人类描述的任务。为此,我们提出了一种模型,该模型可以利用嘈杂的图像标题对,同时维持像Coco这样的传统人类注释数据集的描述性风格。我们的模型通过使用关键字和风格标记将内容从风格分开,使用单一目标是提示语言建模和比其他最近提出的更简单。在实验上,我们的模型在零拍摄设置中始终如一地占据了说明性质量和能力的现有方法。根据苹果酒公制,我们在使用外部数据时在Coco和Nocaps上获得新的最新状态。
translated by 谷歌翻译
连接视觉和语言在生成智能中起着重要作用。因此,已经致力于图像标题的大型研究工作,即用句法和语义有意义的句子描述图像。从2015年开始,该任务通常通过由Visual Encoder组成的管道和文本生成的语言模型来解决任务。在这些年来,两种组件通过对象区域,属性,介绍多模态连接,完全关注方法和伯特早期融合策略的利用而显着发展。但是,无论令人印象深刻的结果,图像标题的研究还没有达到结论性答案。这项工作旨在提供图像标题方法的全面概述,从视觉编码和文本生成到培训策略,数据集和评估度量。在这方面,我们量化地比较了许多相关的最先进的方法来确定架构和培训策略中最有影响力的技术创新。此外,讨论了问题的许多变体及其开放挑战。这项工作的最终目标是作为理解现有文献的工具,并突出显示计算机视觉和自然语言处理的研究领域的未来方向可以找到最佳的协同作用。
translated by 谷歌翻译
识别,跟踪和预测伤口愈合阶段的进展是正确诊断,有效治疗,促进愈合和减轻疼痛的基本任务。传统上,医学专家可能会观察到伤口,以确定当前的愈合状态并建议治疗。但是,可以通过视觉指标从视觉指标中产生此类诊断的专家可能会耗时且昂贵。此外,病变可能需要数周的时间才能进行康复过程,要求资源不断监测和诊断。自动执行此任务可能具有挑战性;遵循伤口从发作到成熟的伤口进展的数据集很小,很少,并且通常没有计算机视觉。为了应对这些挑战,我们引入了一种自我监督的学习计划,该计划由(a)学习伤口的时间动态的学习嵌入,(b)自动阶段发现的聚类以及(c)微调分类。拟议的自我监督和灵活的学习框架是在生物学上启发和培训的,并在人类标签为零的小数据集上进行了培训。 HealNet框架达到了高文本和下游分类精度。当对持有的测试数据进行评估时,HealNet获得了94.2%的文本准确性和93.8%的愈合阶段分类精度。
translated by 谷歌翻译